• • 下一篇
基于关键词图表示的文本语义去重算法
汪锦云,向阳
摘要: 网络中存在大量语义相同或者相似的冗余文本,文本去重能够解决冗余文本浪费存储空间等问题,并能为信息抽取任务减少不必要的消耗。传统的文本去重方法依赖于文字重合度信息,没有很好地利用文本语义信息,同时也无法捕捉长文本中距离较远句子之间的交互信息,去重效果不够理想。针对文本语义去重问题,提出一种基于关键词图表示的语义去重算法。首先,通过抽取文本对中的语义关键词短语,将文本对表示为以关键词短语为结点的图;其次,通过多种方式对结点进行编码,利用图注意力网络(GAT)学习结点之间的关系得到文本对图的向量表示,并判断文本对是否语义相似;最后,根据文本对语义相似度进行去重处理。与传统方法相比,所提算法能够有效地利用文本的语义信息,并且通过图结构将长文本中距离较远的句子通过关键词短语的共现关系进行连接,增加不同句子之间的语义交互。实验结果表明,所提算法在两个公开数据集CNSE和CNSS上都取得了相较于Simhash、BERT微调、概念交互图(CIG)等传统算法更好的表现,在CNSE数据集的F1值达到84.65%,CNSS数据集的F1值达到90.76%,说明所提算法可以有效提升文本去重任务的效果。
中图分类号: